搜索是数字平台和应用程序中的关键功能之一,如电子词典,搜索引擎和电子商务平台。虽然某些语言的搜索功能是微不足道的,但是,考虑到其复杂的写作系统,Khmer Word搜索是具有挑战性的。单词的多个字符和不同的拼写实现对Khmer Word搜索功能的约束施加了约束。此外,拼写错误很常见,因为强大的拼写检查器在输入设备平台上不可能可用。这些挑战阻碍了在搜索嵌入式应用中使用了高棉语言。此外,由于缺乏用于高棉语言的Wordnet的词汇数据库,因此无法在单词之间建立语义关系,从而实现语义搜索。在本文中,我们向上述与高棉Word搜索相关的挑战提出了一系列强大的解决方案。所提出的解决方案包括字符阶级标准化,图形和基于音素的拼写检查器和Khmer Word语义模型。语义模型基于嵌入模型的单词培训,该模型在30亿字的语料库上培训,用于捕获单词之间的语义相似之处。
translated by 谷歌翻译